Despite the remarkable success of existing methods for few-shot segmentation, there remain two crucial challenges. First, the feature learning for novel classes is suppressed during the training on base classes in that the novel classes are always treated as background. Thus, the semantics of novel classes are not well learned. Second, most of existing methods fail to consider the underlying semantic gap between the support and the query resulting from the representative bias by the scarce support samples. To circumvent these two challenges, we propose to activate the discriminability of novel classes explicitly in both the feature encoding stage and the prediction stage for segmentation. In the feature encoding stage, we design the Semantic-Preserving Feature Learning module (SPFL) to first exploit and then retain the latent semantics contained in the whole input image, especially those in the background that belong to novel classes. In the prediction stage for segmentation, we learn an Self-Refined Online Foreground-Background classifier (SROFB), which is able to refine itself using the high-confidence pixels of query image to facilitate its adaptation to the query image and bridge the support-query semantic gap. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrates the advantages of these two novel designs both quantitatively and qualitatively.
translated by 谷歌翻译
如今,基础模型已成为人工智能中的基本基础设施之一,铺平了通往通用情报的方式。但是,现实提出了两个紧急挑战:现有的基础模型由英语社区主导;用户通常会获得有限的资源,因此不能总是使用基础模型。为了支持中文社区的发展,我们介绍了一个名为Fengshenbang的开源项目,该项目由认知计算与自然语言研究中心(CCNL)领导。我们的项目具有全面的功能,包括大型预培训模型,用户友好的API,基准,数据集等。我们将所有这些都包装在三个子项目中:风水次模型,风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区,促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统,以允许个人访问所需的模型以匹配其计算资源。此外,我们邀请公司,大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。
translated by 谷歌翻译
最近,对抗机器学习攻击对实用音频信号分类系统构成了严重的安全威胁,包括语音识别,说话者识别和音乐版权检测。先前的研究主要集中在确保通过在原始信号上产生类似小噪声的扰动来攻击音频信号分类器的有效性。目前尚不清楚攻击者是否能够创建音频信号扰动,除了其攻击效果外,人类还可以很好地看待。这对于音乐信号尤其重要,因为它们经过精心制作,具有可让人的音频特征。在这项工作中,我们将对音乐信号的对抗性攻击作为一种新的感知攻击框架,将人类研究纳入对抗性攻击设计中。具体而言,我们进行了一项人类研究,以量化人类对音乐信号的变化的看法。我们邀请人类参与者根据对原始和扰动的音乐信号对进行评分,并通过回归分析对人类感知过程进行反向工程,以预测给定信号的人类感知的偏差。然后将感知感知的攻击作为优化问题提出,该问题找到了最佳的扰动信号,以最大程度地减少对回归人类感知模型的感知偏差的预测。我们使用感知感知的框架来设计对YouTube版权探测器的现实对抗音乐攻击。实验表明,感知意识攻击会产生对抗性音乐的感知质量明显优于先前的工作。
translated by 谷歌翻译
为了减轻从头开始构建知识图(kg)的挑战,更一般的任务是使用开放式语料库中的三元组丰富一个kg,那里获得的三元组包含嘈杂的实体和关系。在保持知识代表的质量的同时,以新收获的三元组丰富一个公园,这是一项挑战。本文建议使用从附加语料库中收集的信息来完善kg的系统。为此,我们将任务制定为两个耦合子任务,即加入事件提取(JEE)和知识图融合(KGF)。然后,我们提出了一个协作知识图融合框架,以允许我们的子任务以交替的方式相互协助。更具体地说,探险家执行了由地面注释和主管提供的现有KG监督的JEE。然后,主管评估了探险家提取的三元组,并用高度排名的人来丰富KG。为了实施此评估,我们进一步提出了一种翻译的关系一致性评分机制,以对齐并将提取的三元组对齐为先前的kg。实验验证了这种合作既可以提高JEE和KGF的表现。
translated by 谷歌翻译
在各种实时MRI引导心脏干预措施中,准确分割Cine磁共振成像(MRI)的时间框架是至关重要的步骤。为了获得快速准确的视觉援助,对分割框架的最大延迟和最小吞吐量有严格的要求。该任务上的最新神经网络主要是手工制作的,可以满足这些约束,同时达到了高精度。另一方面,尽管现有文献已经证明了神经体系结构搜索(NAS)在自动识别各种医学应用的最佳神经体系结构方面的力量,但它们主要以准确性为导向,有时是计算复杂性和实时的重要性。约束被忽略。一个主要的挑战是,此类约束是不可差异的,因此与广泛使用的可区分NAS框架不兼容。在本文中,我们提出了一种策略,该策略直接在名为RT-DNAS的可区分NAS框架中处理实时约束。扩展2017 MICCAI ACDC数据集的实验显示,与手动和自动设计的架构进行了最新的架构相比,RT-DNAS能够以更好的精度识别同时满足实时约束的识别。
translated by 谷歌翻译
随着智能设备和物联网无处不在的部署的出现,机器学习推断的数据源已越来越多地转移到网络的边缘。现有的机器学习推理平台通常假设一个均匀的基础架构,并且不考虑包括边缘设备,本地集线器,边缘数据中心和云数据中心的更复杂和分层的计算基础架构。另一方面,最近的Automl工作为异质环境提供了可行的解决方案,用于模型压缩,修剪和量化。对于机器学习模型,现在我们可能很容易找到甚至生成一系列在准确性和效率之间进行不同权衡的模型。我们设计和实施Jellybean,这是一种用于服务和优化机器学习推理工作流程的系统。给定的服务级目标(例如,吞吐量,准确性),Jellybean选择了满足准确性目标的最具成本效益的模型,并决定如何在基础架构的不同层次上部署它们。评估表明,与最先进的模型选择和工人分配解决方案相比,Jellybean的视觉问题回答总成本最高可达58%,而NVIDIA AI City Challenge的车辆跟踪最多可达36%。 Jellybean还优于先前的ML服务系统(例如,在云上火花)的服务成本高达5倍。
translated by 谷歌翻译
随着物联网设备的扩散,研究人员在机器学习的帮助下开发了各种IOT设备识别方法。尽管如此,这些识别方法的安全性主要取决于收集的培训数据。在这项研究中,我们提出了一种名为IOTGan的新型攻击策略来操纵IoT设备的流量,使得它可以避免基于机器学习的IOT设备识别。在IOTGAN的发展中,我们有两个主要的技术挑战:(i)如何在黑匣子环境中获得歧视模型,并如何通过操纵模型将扰动添加到物联网交通中,从而逃避识别不影响物联网设备的功能。为了解决这些挑战,基于神经网络的替代模型用于将目标模型放在黑盒设置中,它作为IOTGAN中的歧视模型。培训操纵模型,以将对抗性扰动添加到物联网设备的流量中以逃避替代模型。实验结果表明,IOTAN可以成功实现攻击目标。我们还开发了高效的对策,以保护基于机器的机器学习的IOT设备识别由IOTGAN破坏。
translated by 谷歌翻译
事件提取,旨在自动获取文档结构信息的技术,在许多领域中吸引了越来越多的关注。大多数现有工作通过将令牌视为不同的角色,令牌级多标签分类框架讨论此问题,同时忽略文档的编写方式。写作风格是一个特殊的内容,用于组织文件,它是相对固定在具有特殊领域的文档中(例如,财务,医疗文件等)。我们认为写作风格包含重要的线索来判断令牌的角色,这种模式的无知可能导致现有工作的性能下降。为此,我们将文档中的写作风格模拟作为参数角色的分布,即角色排名分配,并提出了一种基于角色排名分布的监督机制的事件提取模型,通过监督培训过程来捕获这种模式事件提取任务。我们将模型与在几个真实世界数据集上的最先进的方法进行比较。经验结果表明,我们的方法优于捕获模式的其他替代品。这验证了写入风格包含可以提高事件提取任务性能的有价值的信息。
translated by 谷歌翻译
联合学习(FL)提供了一种高效的分散机器学习框架,其中培训数据仍然在网络中的远程客户端分发。虽然FL实现了使用物联网设备的隐私保留的移动边缘计算框架,但最近的研究表明,这种方法易于来自远程客户端的侧面中毒攻击。要解决FL的中毒攻击,我们提供了一个\ Textit {两阶段}防御算法,称为{lo} cal {ma}恶意的事实{r}(lomar)。在I阶段I中,通过使用内核密度估计方法测量其邻居的相对分布,LOMAR从每个远程客户端进行模型更新。在II阶段,最佳阈值近似以从统计角度来区分恶意和清洁更新。已经进行了四个现实数据集的综合实验,实验结果表明,我们的防御策略可以有效保护FL系统。 {具体来说,标签翻转攻击下的亚马逊数据集上的防御性能表明,与FG + Krum相比,LOMAR从96.0 \%$ 98.8 \%$ 96.0 \%$ 98.8 \%$增加目标标签测试精度,以及90.1美元的总平均测试准确性\%$至97.0 \%$。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译